Over the past few years, developing a broad, universal, and general-purpose computer vision system has become a hot topic. A powerful universal system would be capable of solving diverse vision tasks simultaneously without being restricted to a specific problem or a specific data domain, which is of great importance in practical real-world computer vision applications. This study pushes the direction forward by concentrating on the million-scale multi-domain universal object detection problem. The problem is not trivial due to its complicated nature in terms of cross-dataset category label duplication, label conflicts, and the hierarchical taxonomy handling. Moreover, what is the resource-efficient way to utilize emerging large pre-trained vision models for million-scale cross-dataset object detection remains an open challenge. This paper tries to address these challenges by introducing our practices in label handling, hierarchy-aware loss design and resource-efficient model training with a pre-trained large model. Our method is ranked second in the object detection track of Robust Vision Challenge 2022 (RVC 2022). We hope our detailed study would serve as an alternative practice paradigm for similar problems in the community. The code is available at https://github.com/linfeng93/Large-UniDet.
translated by 谷歌翻译
最新专为加强学习任务而设计的算法着重于找到一个最佳解决方案。但是,在许多实际应用中,重要的是开发具有多种策略的合理代理商。在本文中,我们提出了多样性引导的政策优化(DGPO),这是一个在同一任务中发现多种策略的政策框架。我们的算法使用多样性目标来指导潜在的条件政策,以在单个培训程序中学习一系列不同的策略。具体而言,我们将算法形式化为多样性受限的优化问题和外部奖励约束优化问题的组合。我们将约束优化作为概率推理任务解决,并使用策略迭代来最大化派生的下限。实验结果表明,我们的方法有效地在各种强化学习任务中找到了各种策略。我们进一步表明,与其他基线相比,DGPO达到了更高的多样性评分,并且具有相似的样品复杂性和性能。
translated by 谷歌翻译
深度加强学习(DRL)在复杂的视频游戏中取得了超级性能(例如,星际争霸II和DOTA II)。然而,目前的DRL系统仍然遭受多助手协调,稀疏奖励,随机环境等的挑战。在寻求解决这些挑战时,我们雇用了足球视频游戏,例如Google Research Football(GRF),如我们测试的开发基于端到端的学习的AI系统(表示为Tickick)以完成此具有挑战性的任务。在这项工作中,我们首先从联赛培训获得的单一代理专家的自我播放中生成了一个大型重播数据集。然后,我们开发了一个分布式学习系统和新的离线算法,以从固定的单个代理数据集中学习一个强大的多辅助AI。据我们所知,Tickick是第一个基于学习的AI系统,可以接管多个Agent Google Research Footful Game,而以前的工作可以控制单一代理或实验玩具学术情景。广泛的实验进一步表明,我们的预先训练的模型可以加速现代多功能算法的训练过程,我们的方法在各种学术方案上实现了最先进的性能。
translated by 谷歌翻译
我们将点隶属关系引入特征Upsmpling,这一概念描述了每个上采样点的隶属关系到具有语义相似性的本地解码器特征点形成的语义群集。通过重新思考点的隶属关系,我们提出了一种通用公式,用于产生上采样内核。内核不仅鼓励语义平滑度,还鼓励上采样的特征图中的边界清晰度。此类属性对于某些密集的预测任务(例如语义分割)特别有用。我们公式的关键思想是通过比较每个编码器特征点与解码器特征的空间相关局部区域之间的相似性来生成相似性感知的内核。通过这种方式,编码器特征点可以作为提示,以告知UPS采样特征点的语义集群。为了体现该配方,我们进一步实例化了轻巧的增加采样算子,称为相似性 - 吸引点隶属关系(SAPA),并研究其变体。 SAPA会在许多密集的预测任务上邀请一致的性能改进,包括语义分割,对象检测,深度估计和图像垫。代码可用:https://github.com/poppinace/sapa
translated by 谷歌翻译
主动学习是自动化机器学习系统的重要技术。与旨在自动化神经网络体系结构设计的神经体系结构搜索(NAS)相反,主动学习旨在自动化培训数据选择。对于训练长尾巴的任务尤其重要,在该任务中,在该任务中,稀疏的样品分布稀疏。主动学习通过逐步培训模型,以有效的数据选择来减轻昂贵的数据注释问题。它没有注释所有未标记的样本,而是迭代选择并注释最有价值的样本。主动学习在图像分类中很受欢迎,但在对象检测中尚未得到充分探索。当前的大多数对象检测方法都通过不同的设置进行评估,因此很难公平地比较其性能。为了促进该领域的研究,本文贡献了一个活跃的学习基准框架,称为Albench,用于评估对象检测中的主动学习。该Albench框架在自动深层模型训练系统上开发,易于使用,与不同的主动学习算法兼容,并确保使用相同的培训和测试协议。我们希望这种自动化的基准系统能够帮助研究人员轻松复制文学的表现,并与先前的艺术进行客观的比较。该代码将通过GitHub发布。
translated by 谷歌翻译
我们考虑在密集预测中进行任务无关功能的问题上采样,在该预测中,需要进行更新的操作员来促进诸如语义细分和详细信息敏感任务(例如图像矩阵)等区域敏感任务。现有的UP采样运算符通常可以在两种类型的任务中都能很好地工作,但两者兼而有之。在这项工作中,我们介绍了淡入淡出的淡出,插件和任务不合时宜的Upplaping Operator。淡出从三个设计选择中受益:i)考虑编码器和解码器功能在增加内核的过程中共同进行; ii)有效的半换档卷积操作员,可以对每个特征点如何有助于上采样内核进行粒状控制; iii)依赖解码器的门控机制,可增强细节描述。我们首先研究了淡出在玩具数据上的淡采样属性,然后在大规模的语义分割和图像垫子上对其进行评估。尤其是,淡淡的淡出通过在不同任务中持续优于最近的动态上采样操作员,从而揭示了其有效性和任务不足的特征。它还可以很好地跨越卷积和变压器架构,而计算开销很少。我们的工作还提供了有关使任务不合时宜的提升的深入见解。代码可在以下网址找到:http://lnkiy.in/fade_in
translated by 谷歌翻译
最近,Vision Transformers开始显示出令人印象深刻的结果,这些结果显着超过了基于大卷积的模型。但是,在用于移动或资源约束设备的小型模型的领域中,Convnet在性能和模型复杂性方面仍然具有自己的优势。我们提出了EdgeFormer,这是一种基于Convnet的骨干模型,通过将视觉变压器的优点融合到Convnets中,进一步增强了这些优势。具体而言,我们提出了带有位置嵌入的全球循环卷积(GCC),这是一种轻巧的卷积OP,它具有全球接收场,同时产生位置敏感特征,如本地卷积。我们将GCC和Squeeze-eventation Ops结合在一起,形成像模型块这样的元组合体,该模型块具有像变压器一样的注意机制。上述块可以以插件的方式使用,以替换相关的障碍物或变压器中的相关块。实验结果表明,所提出的EdgeFormer在常见视觉任务和数据集中基于流行的轻巧弯头和基于视觉变压器的模型的性能更好,同时具有更少的参数和更快的推理速度。对于ImagEnet-1K的分类,EdgeFormer以约500万个参数实现78.6%的TOP-1准确性,节省11%的参数和13%的计算成本,但准确性提高了0.2%,并且更快的推理速度(在基于ARM的Rockchip RK3288上)使用移动设备,仅使用0.5倍的参数,但与DEIT相比,准确度为2.7%。在MS-Coco对象检测和Pascal VOC分段任务上,EdgeFormer还显示出更好的性能。代码可从https://github.com/hkzhang91/geformer获得
translated by 谷歌翻译
本文介绍了一种开源平台,可快速发展计算机视觉应用。该平台在机器学习开发过程的中心进行了高效的数据开发,集成了主动学习方法,数据和型号版本控制,并使用项目等概念,以便并行启用多个任务特定数据集的快速迭代。我们通过将开发过程抽象到核心状态和操作中,设计开放式平台,并设计开放API,将第三方工具集成为操作的实现。这种开放式设计降低了ML与现有工具的ML团队的开发成本和采用费用。与此同时,该平台支持录制项目开发历史记录,可以共享成功的项目,以进一步提高类似任务的模型生产效率。该平台是开源的,已经在内部使用,以满足自定义现实世界计算机视觉应用程序的日益增长的需求。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译